近年来,随着预审预周习惯的模型的越来越多,为特定的下游分类任务选择最佳的检查站的问题一直在增加注意力。尽管最近提出了几种方法来解决选择问题(例如LEEP,H-SCORE),但这些方法诉诸应用学习理论并非充分动机的启发式方法。在本文中,我们介绍了PACTRAN,这是一个理论上扎根的指标家族,用于验证模型选择和可传递性测量。我们首先展示了如何从转移学习设置下的最佳PAC-Bayesian界限中得出PACTRAN指标。然后,我们在许多视觉任务(VTAB)以及语言和视觉(OKVQA)任务上对PACTRAN的三个度量实例进行了经验评估。对结果的分析表明,与现有选择方法相比,PACTRAN是一种更一致和有效的可传递性度量。
translated by 谷歌翻译
Creativity is an indispensable part of human cognition and also an inherent part of how we make sense of the world. Metaphorical abstraction is fundamental in communicating creative ideas through nuanced relationships between abstract concepts such as feelings. While computer vision benchmarks and approaches predominantly focus on understanding and generating literal interpretations of images, metaphorical comprehension of images remains relatively unexplored. Towards this goal, we introduce MetaCLUE, a set of vision tasks on visual metaphor. We also collect high-quality and rich metaphor annotations (abstract objects, concepts, relationships along with their corresponding object boxes) as there do not exist any datasets that facilitate the evaluation of these tasks. We perform a comprehensive analysis of state-of-the-art models in vision and language based on our annotations, highlighting strengths and weaknesses of current approaches in visual metaphor Classification, Localization, Understanding (retrieval, question answering, captioning) and gEneration (text-to-image synthesis) tasks. We hope this work provides a concrete step towards developing AI systems with human-like creative capabilities.
translated by 谷歌翻译
有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利(Pali)根据视觉和文本输入生成文本,并使用该界面以许多语言执行许多视觉,语言和多模式任务。为了训练帕利,我们利用了大型的编码器语言模型和视觉变压器(VITS)。这使我们能够利用其现有能力,并利用培训它们的大量成本。我们发现,视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多,因此我们训练迄今为止最大的VIT(VIT-E),以量化甚至大容量视觉模型的好处。为了训练Pali,我们基于一个新的图像文本训练集,其中包含10B图像和文本,以100多种语言来创建大型的多语言组合。帕利(Pali)在多个视觉和语言任务(例如字幕,视觉问题,索方式,场景文本理解)中实现了最新的,同时保留了简单,模块化和可扩展的设计。
translated by 谷歌翻译
读取图像中文本的能力通常缺乏视觉和语言(V&L)模型。我们如何学习表现出强烈的场景文本理解(Stu)的V&L模型?在本文中,我们提出了Prestu,这是一种专门为场景文本理解而设计的简单预训练食谱。Prestu将简单的OCR感知预训练目标与带有现成的OCR信号的大型图像文本数据集结合在一起。我们从经验上证明了这一预训练目标对TextVQA,TextCaps,ST-VQA和Vizwiz-VQA的优越性。我们还研究了哪些因素会影响Stu性能,其中我们强调了在预训练期间图像分辨率和数据集量表的重要性。
translated by 谷歌翻译
视觉问题回答(VQA)主要通过英语镜头进行了研究。但是,以其他方式以其他方式处理VQA将需要大量资源。在本文中,我们在数据和建模方面提出了多种语言视觉问题回答(MVQA)的可扩展解决方案。我们首先向MVQA数据生成提出了一个基于翻译的框架,该框架比直接收集问题和答案的常规方法所需的人类注释工作要少得多。然后,我们将框架应用于CrossModal-3600数据集中的多语言字幕,并开发了有效的注释协议,以创建Maverics-XM3600(MAXM),这是一种仅使用7种不同语言的仅测试的VQA基准。最后,我们提出了一种方法,用于统一,可扩展,开放式和端到端MVQA建模,并在13种语言中表现出强劲的性能。
translated by 谷歌翻译
我们考虑以持续的错误警报率(CFAR)学习检测器的问题。基于经典模型的复合假设检验解决方案对不完美的模型敏感,并且通常在计算上昂贵。相比之下,数据驱动的机器学习通常更强大,并产生具有固定计算复杂性的分类器。在许多应用中,学到的探测器通常没有CFAR。为了缩小这一差距,我们引入了CFARNET,其中损失函数受到惩罚,以在任何零假设的情况下促进检测器的类似分布。在具有一般高斯噪声的线性模型的情况下,渐近分析表明,经典的广义似然比检验(GLRT)实际上是CFAR约束贝叶斯风险的最小化器。合成数据和实际超光谱图像的实验表明,CFARNET导致近CFAR检测器的精度与竞争对手相似。
translated by 谷歌翻译
计算机愿景中的分类问题很常见。尽管如此,啤酒瓶的分类没有专门的工作。作为主课程深度学习挑战的一部分,创建了一个5207啤酒瓶图像和品牌标签的数据集。图像恰好包含一个啤酒瓶。在本文中,我们提出了一个深入的学习模式,将啤酒瓶的图片分为两步的方法。作为第一步,Faster-R-CNN检测与品牌独立于分类相关的图像部分。在第二步中,相关图像部分由Reset-18分类。具有最高置信度的图像部分作为类标签返回。我们提出了一种模型,我们超越了经典的一步转移学习方法,并在最终测试数据集的挑战期间达到了99.86%的准确性。在挑战结束后,我们能够达到100%的准确性
translated by 谷歌翻译
自Covid-19大流行开始以来,研究人员已经开发了深入的学习模式,以分类Covid-19诱导的肺炎。与许多医学成像任务一样,可用数据的质量和数量通常是有限的。在这项工作中,我们在公开的Covid-19图像数据上培训深入学习模型,并评估当地医院胸部X射线数据的模型。这些数据已被两个放射科医师审查和标记,以确保模型的泛化能力的高质量估算。此外,我们正在使用生成的对抗网络来基于该数据生成合成X射线图像。我们的结果表明,使用这些用于数据增强的合成图像可以显着提高模型的性能。这可能是许多稀疏数据域的有希望的方法。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
如果我们曾经超越了理论神经科学的孤立特殊情况的研究之外,我们需要在给定的神经模型上开发更通用的神经电路理论。本文认为在连续时间复发神经网络(CTRNNS)的背景下,这是一种简单但动态的通用模型,其在计算神经科学和神经网络中被广泛利用。在这里,我们在CTRNN中的CODIMINUS-1局部分叉的参数空间结构上扩展了先前的工作,以包括CODIMENICE-2局部分叉歧管。具体地,我们为一般CTRNNS推导出所有通用本地Codiminension-2分叉的必要条件,专门化这些条件到含有一至四个神经元的电路,详细说明将这些条件应用于示例电路,导出闭合形式的表达式。这些分叉歧管可以在可能的情况下,并证明该分析如何允许我们发现和追踪源自剪切2分叉的几个全球编纂-1分叉歧管。
translated by 谷歌翻译